自动语音识别(ASR)是新服务的关键元素,可帮助用户与自动化系统进行交互。深度学习方法使得用单词错误率低于5%的英语ASR部署系统成为可能。但是,这些方法的使用仅适用于具有数百或数千小时音频及其相应转录的语言。为了使所谓的低资源语言加快可以改善其ASR系统性能的资源的可用性,正在研究基于现有的资源来创建新资源的方法。在本文中,我们描述了我们的数据增强方法,以改善低资源和凝集性语言的ASR模型的结果。我们使用Wav2letter ++模型进行了为Quechua开发ASR的实验。通过我们的基本模型方法,我们将WER降低了8.73%。由此产生的ASR模型获得了22.75%的WER,并接受了99小时的原始资源和99小时的合成数据的培训,并结合了文本增强和合成语音发电
translated by 谷歌翻译
抖动和闪光测量已经显示出语音质量的载体和韵律信息,增强了扬声器识别,日记或自动语音识别(ASR)等任务的性能。然而,这种特征很少用于神经基ASR的背景下,其中频谱特征通常是普遍的。在这项工作中,我们研究了将语音质量和音高特征完全且分开地融合到基于变压器的ASR模型的效果,直觉是注意力机制可能会利用潜在的韵律特征。为此为此,我们提出了用于韵律和光谱特征的分离的卷积前端,表明该架构选择比将这种间距和语音质量特征的简单串联产生更好的结果,以及对MEL-谱图滤波器组。此外,我们找到了LibrisPeech基准测试的平均错误率高达5.6%。这种发现可以进一步研究韵律知识应用于增加基于变压器的ASR的鲁棒性的研究。
translated by 谷歌翻译
The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
共处的触觉传感是一种基本的启发技术,用于灵巧操纵。然而,可变形的传感器在机器人,握住的对象和环境之间引入了复杂的动力学,必须考虑进行精细操纵。在这里,我们提出了一种学习软触觉传感器膜动力学的方法,该动力学解释了由握把对象和环境之间的物理相互作用引起的传感器变形。我们的方法将膜的感知3D几何形状与本体感受反应扳手结合在一起,以预测以机器人作用为条件的未来变形。从膜的几何形状和反应扳手中回收了抓握的物体姿势,从触觉观察模型中解耦相互作用动力学。我们在两个现实世界的接触任务上基准了我们的方法:用握把标记和手中旋转的绘画。我们的结果表明,明确建模膜动力学比基准实现了更好的任务性能和对看不见的对象的概括。
translated by 谷歌翻译
自动图像分析中的不确定性定量在许多应用中高度满足。通常,分类或细分中的机器学习模型仅用于提供二进制答案。但是,量化模型的不确定性可能在主动学习或机器人类互动中起关键作用。当使用基于深度学习的模型时,不确定性量化尤其困难,这是许多成像应用中最新的。当前的不确定性量化方法在高维实际问题中不能很好地扩展。可扩展的解决方案通常依赖于具有不同随机种子的相同模型的推理或训练集合过程中的经典技术,以获得后验分布。在本文中,我们表明这些方法无法近似分类概率。相反,我们提出了一个可扩展和直观的框架来校准深度学习模型的合奏,以产生近似分类概率的不确定性定量测量。在看不见的测试数据上,我们证明了与标准方法进行比较时的校准,灵敏度(三种情况中的两种)以及精度。我们进一步激发了我们在积极学习中的方法的用法,创建了伪标签,以从未标记的图像和人机合作中学习。
translated by 谷歌翻译
为了调节机器学习驱动的系统(ML)系统,当前的审核过程主要集中于检测有害算法偏见。尽管这些策略已被证明具有影响力,但在审计过程中涉及ML驱动系统中伦理的文档中概述的一些价值仍然不足。这种未解决的值主要处理无法轻易量化的上下文因素。在本文中,我们开发了一个基于价值的评估框架,该框架不限于偏见审计,并涵盖了算法系统的重要道德原则。我们的框架提出了值的圆形布置,并具有两个双极尺寸,这些二极管尺寸使共同的动机和潜在的紧张局势明确。为了实现这些高级原则,然后将价值分解为特定的标准及其表现形式。但是,其中一些特定于价值的标准是相互排斥的,需要协商。与仅依靠ML研究人员和从业者的意见的其他一些其他审计框架相反,我们认为有必要包括利益相关者,这些利益相关者表现出各种观点,以系统地谈判和巩固价值和标准紧张局势。为此,我们将利益相关者绘制有不同的见解需求,并为将价值表现传达给他们的量身定制手段。因此,我们通过评估框架为当前的ML审计实践做出了贡献,该实践可视化价值之间的亲密关系和紧张局势,并给出了如何对其进行操作的准则,同时向广泛的利益相关者开放评估和审议过程。
translated by 谷歌翻译